数据分析师常用大数据分析引擎对比之ClickHouse与Hive

可以叫我才哥 2023-02-17

The following article is from 数仓宝贝库 Author 陈峰

导读：Hive是Hadoop生态系统中事实上的数据仓库标准。Hive是建立在Hadoop生态中的数据仓库中间件，其本身并不提供存储与计算能力。Hive的存储引擎使用HDFS，计算引擎使用MapReduce或Spark。Hive本质上是一个元数据管理平台，通过对存储于HDFS上的数据文件附加元数据，赋予HDFS上的文件以数据库表的语义。并对外提供统一的Hive SQL接口，将用户提交的SQL翻译为对应的MapReduce程序或Hive程序，交给相应的计算引擎执行。由于MapReduce计算模型本身的缺陷，因此目前一般情况下会将Hive结合Spark使用。本文主要对比Hive On Spark与ClickHouse的区别。

01Hive的数据文件

和ClickHouse不同，由于Hive本身并不存储数据，而是为HDFS上的文件赋予数据库表、列的语义，保存对应的元数据供查询时使用，因此Hive的数据文件存在多种类型

1、textfile

textfile（文本文件）是Hive中默认的数据文件，是一类基于纯文本的数据文件格式。在大数据时代之前的CSV、TSV都属于该类文件。这类文件的特点如下。

按行存储，文件内的一个物理行对应数据表中的一行数据。
行内以特殊的符号分列。
纯文本保存，不需要特殊解编码器即可识别。
受限于纯文本表现力的限制，复杂类型可能需要额外的信息才能正确解析（即单独的数据文件不足以保存所有信息），例如日期等。
默认情况下无压缩。

文本文件由于其按行存储的特性，导致其在Spark中是性能最差的一种数据文件格式。文本文件通常由业务侧的程序直接生成，且在业务侧被大量使用。因此Hive默认情况下使用文本文件作为数据文件的存储格式，保证这些文本文件在导入大数据系统后可以不用转换而直接被Hive识别和处理。

2、Apache ORC

Apache ORC（Optimized Row Columnar,优化行列式）是Hive中一种列式存储的数据文件格式，ORC在textfile的基础上进行了大量的修改以优化大数据场景下的查询性能，ORC的主要特点如下。

按列存储。
二进制存储，自描述。
包含稀疏索引。
支持数据压缩。
支持ACID事务。

3、Parquet

Hadoop Parquet是Hadoop生态中的一种语言无关的，不与任何数据计算框架绑定的新型列式存储格式。Parquet可以兼容多种计算框架和计算引擎，由于其优秀的兼容性，在生产中被大量使用。其主要特点如下。

按列存储。
二进制存储，自描述。
包含稀疏索引。
支持数据压缩。
语言独立、平台独立、计算框架独立。

4、Parquet与ORC

Parquet和ORC格式有着很多的相同点，那么在使用时应当如何选择呢？

（1）原则一：希望平台独立，更好的兼容性，选择Parquet

Parquet在设计时考虑了通用性，如果希望进行联邦查询或为了将数据文件交给其他计算引擎使用，那么应该选择Parquet。

（2）原则二：数据量庞大，希望获得最强的查询性能，选择ORC

ORC针对HDFS进行了针对性的优化，当数据非常庞大且需对查询性能有要求时，务必选择ORC格式。ORC在大数据量下的性能一定强于Parquet，大量的实验证明了这一点。因此本书后续的性能比较都是基于ORC格式的Hive。

ORC的设计原则和ClickHouse类似，都是存储服务于计算的典范。这也提现了性能和通用性不可兼得。再次强调，架构设计没有银弹，有得必有失。不要试图设计各方面都优秀的架构，即使是Parquet，也为了通用性放弃了性能。

02Hive的存储系统

Hive本身不提供存储，其数据都存储于HDFS(Hadoop Distribution File System,Hadoop分布式文件系统)上。HDFS是大数据中专用的分布式文件系统，专为大数据处理而设计。

03Hive计算引擎与ClickHouse计算引擎的差异

Hive本身并不提供计算引擎，而是使用Hadoop生态的MapReduce或Spark实现计算。由于Spark更高层次的抽象，使得Spark的计算引擎的性能远高于MapReduce。两者之间的区别如下：

1、运行模式不同

ClickHouse是MPP架构，强调充分发挥单机性能，没有真正的分布式表，ClickHouse的分布式表只是本地表的代理，对分布式表的查询都会被转换为对本地表的查询。这导致ClickHouse在执行部分大表join时可能出现资源不足的情况。

Hive的数据存储于分布式文件系统，因此Hive的计算引擎Spark在执行计算任务时，需要依据数据分布进行调度。在必要时，Spark可以通过CBO将数据重新排序后再分散到多台机器执行，以实现复杂的查询。

ClickHouse适合简单的DW之上的即席查询。而Spark由于其分布式特性，导致其任务启动时间很长，因此不适合实现即席查询，但是对于大数据量的join等复杂查询时具备非常大的优势。

2、优化重点不同

ClickHouse的优化重点在如何提高单机的处理能力，而Spark的优化重点在于如何提高分布式的协作效率。

04ClickHouse比Hive快的原因

需要再次强调的是，ClickHouse只是在DW即席查询场景下比Hive快，并没有在所有场景都比Spark快，详细的分析请参考第5章。本节对比的是，当ClickHouse和Hive都进行即席查询，ClickHouse比Hive快的原因。

1、严格数据组织更适合做分析

ClickHouse的数据组织相对于Hive更严格，需要用户在建表时制定排序键进行预排序。虽然Hive的ORC格式和ClickHouse的数据文件其实一定程度上是等价的，但是Hive的ORC格式并不要求数据存储前进行预排序。

在预排序的情况下，数据在写入物理存储时已经按照一定的规律进行了聚集，在理想条件下可以大幅度降低I/O时间，避免数据的遍历。Hive的ORC格式在这一块并没有严格要求，因此ORC的存储就已经比ClickHouse消耗更多的I/O来遍历数据了。而ClickHouse却可以通过实现预排序好的数据和良好的索引，直接定位到对应的数据，节省了大量的I/O时间。

2、更简单的调度

ClickHouse目的在于压榨单机性能，并没有真正的分布式表，数据都在本地，这也使得ClickHouse不需要复杂的调度，直接在本机执行SQL即可。而Hive的数据都在HDFS上，在真正任务前需要依据数据分布确定更复杂的物理计划，然后将Spark程序调度到对应的Data Node上，调度的过程非常消耗时间。

关于作者：陈峰，资深大数据专家和架构师，ClickHouse技术专家，滴普科技（2B领域独角兽）合伙人兼首席架构师。《ClickHouse性能之巅：从架构设计解读性能之谜》作者。

推荐阅读《ClickHouse性能之巅：从架构设计解读性能之谜》

‍直播间新书限时5折发售，欢迎预约‍

推荐语：滴普合伙人兼首席架构师/资深ClickHouse专家撰写，从架构剖析ClickHouse底层逻辑，总结大量性能调优方法。

感谢出版社华章妹赠书

赠书规则

赠送规则：通过留言点赞的方式送出，转发本文至朋友圈+文末留言，留言点赞数量最多的第1位读者将获得1本，随机抽1本。

附加规则：最近一个月中奖的本次不再送书，也给其他人一个中奖的机会！

开奖时间：01月01日20:00（周日）

注意事项：最终获赠者请在24小时以内添加才哥微信👇，并提供朋友圈转发和集赞的截图。如发现机器或者非真实流量刷赞，发现后将进入黑名单，取消获赠资格。

清华学生国庆怒怼丘成桐！这事儿到底谁对谁错？

A股，突变！

妻子每月收入7000给弟弟寄6000，离婚时，弟弟带着女朋友冲到民政局：“姐，你分到的钱，能帮我们凑个首付吗？

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

数据分析师常用大数据分析引擎对比之ClickHouse与Hive

和ClickHouse不同，由于Hive本身并不存储数据，而是为HDFS上的文件赋予数据库表、列的语义，保存对应的元数据供查询时使用，因此Hive的数据文件存在多种类型

1、textfile

textfile（文本文件）是Hive中默认的数据文件，是一类基于纯文本的数据文件格式。在大数据时代之前的CSV、TSV都属于该类文件。这类文件的特点如下。

2、Apache ORC

Apache ORC（Optimized Row Columnar,优化行列式）是Hive中一种列式存储的数据文件格式，ORC在textfile的基础上进行了大量的修改以优化大数据场景下的查询性能，ORC的主要特点如下。

3、Parquet

Hadoop Parquet是Hadoop生态中的一种语言无关的，不与任何数据计算框架绑定的新型列式存储格式。Parquet可以兼容多种计算框架和计算引擎，由于其优秀的兼容性，在生产中被大量使用。其主要特点如下。

4、Parquet与ORC

Parquet和ORC格式有着很多的相同点，那么在使用时应当如何选择呢？

（1）原则一：希望平台独立，更好的兼容性，选择Parquet

Parquet在设计时考虑了通用性，如果希望进行联邦查询或为了将数据文件交给其他计算引擎使用，那么应该选择Parquet。

（2）原则二：数据量庞大，希望获得最强的查询性能，选择ORC

ORC针对HDFS进行了针对性的优化，当数据非常庞大且需对查询性能有要求时，务必选择ORC格式。ORC在大数据量下的性能一定强于Parquet，大量的实验证明了这一点。因此本书后续的性能比较都是基于ORC格式的Hive。

Hive本身不提供存储，其数据都存储于HDFS(Hadoop Distribution File System,Hadoop分布式文件系统)上。HDFS是大数据中专用的分布式文件系统，专为大数据处理而设计。

1、运行模式不同

ClickHouse是MPP架构，强调充分发挥单机性能，没有真正的分布式表，ClickHouse的分布式表只是本地表的代理，对分布式表的查询都会被转换为对本地表的查询。这导致ClickHouse在执行部分大表join时可能出现资源不足的情况。

Hive的数据存储于分布式文件系统，因此Hive的计算引擎Spark在执行计算任务时，需要依据数据分布进行调度。在必要时，Spark可以通过CBO将数据重新排序后再分散到多台机器执行，以实现复杂的查询。

ClickHouse适合简单的DW之上的即席查询。而Spark由于其分布式特性，导致其任务启动时间很长，因此不适合实现即席查询，但是对于大数据量的join等复杂查询时具备非常大的优势。

2、优化重点不同

ClickHouse的优化重点在如何提高单机的处理能力，而Spark的优化重点在于如何提高分布式的协作效率。

1、严格数据组织更适合做分析

ClickHouse的数据组织相对于Hive更严格，需要用户在建表时制定排序键进行预排序。虽然Hive的ORC格式和ClickHouse的数据文件其实一定程度上是等价的，但是Hive的ORC格式并不要求数据存储前进行预排序。

2、更简单的调度

您可能也对以下帖子感兴趣

清华学生国庆怒怼丘成桐！ 这事儿到底谁对谁错？

A股，突变！

妻子每月收入7000给弟弟寄6000，离婚时，弟弟带着女朋友冲到民政局：“姐，你分到的钱，能帮我们凑个首付吗？

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

生成图片，分享到微信朋友圈

数据分析师常用大数据分析引擎对比之ClickHouse与Hive

和ClickHouse不同，由于Hive本身并不存储数据，而是为HDFS上的文件赋予数据库表、列的语义，保存对应的元数据供查询时使用，因此Hive的数据文件存在多种类型

1、textfile

textfile（文本文件）是Hive中默认的数据文件，是一类基于纯文本的数据文件格式。在大数据时代之前的CSV、TSV都属于该类文件。这类文件的特点如下。

2、Apache ORC

Apache ORC（Optimized Row Columnar,优化行列式）是Hive中一种列式存储的数据文件格式，ORC在textfile的基础上进行了大量的修改以优化大数据场景下的查询性能，ORC的主要特点如下。

3、Parquet

Hadoop Parquet是Hadoop生态中的一种语言无关的，不与任何数据计算框架绑定的新型列式存储格式。Parquet可以兼容多种计算框架和计算引擎，由于其优秀的兼容性，在生产中被大量使用。其主要特点如下。

4、Parquet与ORC

Parquet和ORC格式有着很多的相同点，那么在使用时应当如何选择呢？

（1） 原则一：希望平台独立，更好的兼容性，选择Parquet

Parquet在设计时考虑了通用性，如果希望进行联邦查询或为了将数据文件交给其他计算引擎使用，那么应该选择Parquet。

（2） 原则二：数据量庞大，希望获得最强的查询性能，选择ORC

ORC针对HDFS进行了针对性的优化，当数据非常庞大且需对查询性能有要求时，务必选择ORC格式。ORC在大数据量下的性能一定强于Parquet，大量的实验证明了这一点。因此本书后续的性能比较都是基于ORC格式的Hive。

Hive本身不提供存储，其数据都存储于HDFS(Hadoop Distribution File System,Hadoop分布式文件系统)上。HDFS是大数据中专用的分布式文件系统，专为大数据处理而设计。

1、运行模式不同

ClickHouse是MPP架构，强调充分发挥单机性能，没有真正的分布式表，ClickHouse的分布式表只是本地表的代理，对分布式表的查询都会被转换为对本地表的查询。这导致ClickHouse在执行部分大表join时可能出现资源不足的情况。

Hive的数据存储于分布式文件系统，因此Hive的计算引擎Spark在执行计算任务时，需要依据数据分布进行调度。在必要时，Spark可以通过CBO将数据重新排序后再分散到多台机器执行，以实现复杂的查询。

ClickHouse适合简单的DW之上的即席查询。而Spark由于其分布式特性，导致其任务启动时间很长，因此不适合实现即席查询，但是对于大数据量的join等复杂查询时具备非常大的优势。

2、优化重点不同

ClickHouse的优化重点在如何提高单机的处理能力，而Spark的优化重点在于如何提高分布式的协作效率。

1、严格数据组织更适合做分析

ClickHouse的数据组织相对于Hive更严格，需要用户在建表时制定排序键进行预排序。虽然Hive的ORC格式和ClickHouse的数据文件其实一定程度上是等价的，但是Hive的ORC格式并不要求数据存储前进行预排序。

2、更简单的调度

您可能也对以下帖子感兴趣

清华学生国庆怒怼丘成桐！这事儿到底谁对谁错？

（1）原则一：希望平台独立，更好的兼容性，选择Parquet

（2）原则二：数据量庞大，希望获得最强的查询性能，选择ORC